其他
预训练时代下的文档智能,如何迈向多模态?丨微软亚研院团队的思路与实践
文本向量 (Text Embedding)
图像向量 (Image Embedding)
布局向量 (Layout Embedding)
基于空间感知自注意力机制的多模态编码器
遮罩式视觉语言模型(Masked Visual-Language Model)
文本—图像对齐(Text-Image Alignment)
文本—图像匹配(Text-Image Match)
预训练方法:跨模态对齐
LayoutLM (KDD 2020):
https://dl.acm.org/doi/10.1145/3394486.3403172
LayoutLMv2 (ACL 2021):
https://aclanthology.org/2021.acl-long.201/
LayoutXLM (Preprint 2021) :
https://arxiv.org/abs/2104.08836
《文档智能:数据集、模型和应用》:
https://www.microsoft.com/en-us/research/publication/document-ai-benchmarks-models-and-applications-in-chinese/
LayoutLM: https://aka.ms/layoutlm
LayoutLMv2: https://aka.ms/layoutlmv2
LayoutXLM: https://aka.ms/layoutxlm